DAY4：LLM是怎麼學會語言的？(上)

學習筆記

妤 2025-10-14 13:14:23 ‧ 295 瀏覽

LLM無法直接理解文字，因此我們需要先將文字轉換成數字（Token）。
Tokenization就是這個轉換過程，且不同模型會有不同的規則。

我們可以用tokenizer.vocab_size來查看欲使用的語言模型中token的數量，看它有多少token可以在文字接龍時進行選擇。

每一個token都有一個編號（從0開始）。
我們可以用tokenizer.decode這個函數將token編號轉成對應的文字。

熱門推薦

{{ item.channelVendor }} | {{ item.webinarstarted }} |

直播中

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19838 篇

完賽人數

528 人

IT邦幫忙